昨天講完了早期融合模型,各位是眼睛一亮還是看完之後霧煞煞呢?
今天就來看晚期融合模型吧!兩種方法很不一樣,也有各自不同的適用時機。
晚期融合又被稱作為「決策層融合」,跟早期融合最主要的差別在於,他是先在各個模態上分別進行情感分析,在將單模態的分析結果整合成最終的決策。
優點是因為他捕捉個各種不同模態的動態特徵,所以再使用上具有靈活、簡便、容易適應不同模態數量(要用幾種就用幾種)的好處。
但是缺點也是因此而起,由於各種模態之間往往沒有得到很充分的建模,所以導致交互關係的效果較差。
為每個模態各自訓練獨立的單模態分類模型,然後再將這些結果的信心分數(confidence scores)取平均來得到最終的結果。
這種方法非常的簡單直接,雖然在操作上是簡便的,但因為是採取「平均」,所以沒有考慮到不同模態間的權重差異,假設個模態的重要性是相同的。
這個方法的提出者跟平均法是同一個,所以再前期操作的方法幾乎相同,就是為每個模態訓練分類模型。
但後面稍稍有一點不一樣,除了使用信用分數(c),還加入了互補分數(1-c)最為特徵,然後在輸入到深度融合網路中進行預測。
這個方法加入個更複雜的融合過程,可以更好的捕捉到不同模態之間的交互資訊。
這個模型是使先使用CNN訓練完之後,在使用SAL方法去提升自身的泛化能力,並進行情感的預測。
這個模型最關鍵的地方就是透過選擇和添加來減少那些有干擾的因素(比如身分特徵):
SAL由兩個階段構成,第一個是「選擇階段」,在這個階段,他會去是別出神經網路中潛在表現的混淆因素;在第二階段「加法階段」中,則會透過對這些表現添加高斯噪聲,讓原始模型丟棄這些混淆因素。
其實就是所謂的「多數決」。
這個方法的思維很簡單,就是在將各種模態分析過後,將他們的結果進行比較,最後選擇出現最多的標先作為最終的決策結果。
比如:如果利用文本、聲音、圖像三種模態進行分析,各自出現的結果是「正面」、「負面」、「正面」,那麼最終的決策會是「正面」,因為出現的次數最多。